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PROCEDES ET DISPOSITIFS D'ANALYSE ET DE SYNT HESE AUDIO 

La presente invention concerne I'analyse et la synthase des signaux 
audio, a partir de representations de ces signaux dans domaine spectral. 

Elie s' applique en particulier, mais non exclusivement, au codage de la 
5 parole, en bande etroite ou en bande elargie. dans diverses gammes de debit 
de codage. Parmi les autres domaines d' application, on peut citer le debruitage 

par oouctraction cpoctrala (voir EPnArfi '=t'^A fiP^7 nil Wnfl9/1 4739) 

Dans les precedes d'analyse en question, le spectre du signal est 
obtenu en transformant des trames successives vers le domaine frequentiel. La 
10 transformation employee est le plus souvent la transformee de Fourier rapide 
(TFR) ; mais d' autres transformees connues sont utilisables. Dans le cas 
frequent d'un echantillonnage du signal a 8 kHz, le nombre N d'echantillons par 
trames est typiquement de I'ordre de 100 a 500, ce qui represente des trames 
de quelques dizaines de millisecondes. Pour beneficier de la resolution 
15 maximale en frequence, la TFR est effectuee sur 2N points, N echantillons a 
zero etant ajoutes aux N echantillons de la trame. 

Le spectre obtenu par transformee de Fourier de la trame de signal est 
la convolution du spectre reel du signal par la transformee de Fourier de la 
fenetre d'analyse du signal. Cette fenetre d'analyse, qui pondere les 
20 echantillons de chaque trame. est necessaire a la prise en compte de la duree 
finie de la trame. Si la trame de signal est directement soumise a la TFR, c'est- 
a-dire si on utilise une fenetre d'analyse rectangulaire, le spectre obtenu est 
perturbe par les pics secondaires de la TFR de la fenetre d'analyse. Pour 
limiter cet inconvenient, qui est particulierement sensible lorsque des 
25 parametres representant le signal ou le bruit doivent etre extraits des spectres, 
on a recours a des fenetres ayant de meilleures proprietes spectrales, c'est-a- 
dire des fonctions de ponderation dont le support est limite a N echantillons et 
dont la transformee de Fourier a son energie concentree dans un pic etroit 
avec une forte attenuation des pics secondaires. Les plus courantes de ces 
30 fenetres sont les fenetres de Hamming, de Manning et de Kaiser. 

Dans la methode d'analyse et de synthese dite OLA (« Overlap-And- 
Add »), les trames successives presentent des recouvrements mutuels de 
50 % (N/2 echantillons). Comme les fenetres d'analyse couramment utilisees 
verifient la propriete if^{\+W2) + f^Ci) = 1 ■ la synthese peut etre effectuee 
35 simplement en effectuant la somme a recouvrement des trames de N 



o o 



-2- • ' ' 

echantillons successivement calculees par transformee de Fourier inverse des 
spectres. 

Dans le but d'affiner la representation spectrale, certaines methodes 
dites WOLA (« Weighted OLA ») utilisent a I'analyse des trames dont les 
5 recouvrements mutuels sont de plus de 50 %. A la synthese, 11 est necessaire 
de reponderer les echantillons des trames avant de les sommer. Ces methodes 

auqmentent la complexite de I'analyse et de la synthese. Dans des applications 

de codage, elles augmentent egalement le debit de transmission requis. . 

Un but de la presente invention est de proposer un schema tf analyse 

10 et de synthese de signaux audio qui permette de limiter la cadence des trames 
d' analyse, tout en utilisant des fenetres d'analyse ayant de bonnes proprietes 
spectrales. o 

U invention propose ainsi un procede d'analyse d'un signal audio traite 
par trames successives de N echantillons. dans lequel on pondere les 

15 echantillons de chaque trame par une fenetre d'analyse de type Hamming, 
Manning, Kaiser ou analogue, on calcule un spectre du signal audio en 
transformant chaque trame d' echantillons ponderes dans le domaine 
frequentiel. et on traite le spectre du signal audio pour delivrer des parametres 
de synthese d'un signal derive du signal audio analyse. Suivant invention, les 

20 trames successives pour lesquelles on delivre des jeux complets de 
parametres de synthese presentent des recouvrements mutuels de moins de 
N/2 echantillons, soit moins de 50 %. 

Les trames pour lesquelles ne sont pas delivres des jeux complets de 
parametres de synthese peuvent ne faire I'objet d'aucune analyse spectrale. 

25 En variante. une analyse peut neanmoins etre effectuee pour ces trames, afin 
de delivrer des jeux incomplets de parametres de synthese incluant des 
donnees representant une erreur d' interpolation d'au moins un des parametres 
de synthese et/ou des donnees representant un filtre d' interpolation d'au moins 
un des parametres de synthese. 

30 Dans un premier domaine d'application du procede, le traitement du 

spectre du signal audio comporte une extraction de parametres de codage en 
vue de la transmission et/ou du stockage du signal audio code. Dans un 
second domaine d' application du procede, le traitement du spectre du signal 
audio comporte un debruitage par soustraction spectrale. D'autres domaines 

35 d'application peuvent encore etre envisages parmi les traitements audio. 

Un second aspect de invention se rapporte a un procede de synthese 
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d'un signal audio, dans lequel on obtient des estimations spectrales 
successives correspondant respectivement a des trames de N echantillons du 
signal audio ponderes par une fenetre danalyse, las trames successives 
presentant des recouvrements mutuels de L echantillons, on evalue cheque 

5 trame du signal audio en transformant les estimations spectrales dans le 
domaine tempore!, et on combine les trames evaluees pour former le signal 
synthetise. Selon ce precede, on modifie chaque trame evaluee en lui 
appliquant un traitement correspondant a une division par ladite fenetre 
d'anaiyse et a une multiplication par une fenetre de synthase, et on forme le 

10 signal synthetise comme une somme a recouvrement des trames modifiees. Le 
nombre L etant plus petit que N/2 et les echantillons tf une trame ayant des 
rangs i numerotes de 0 a N-1, la fenetre de synthese fgO) verifie 

fs(N-L+i) + fs(i) = A pour 0 < i < L, et est egale a A pour L < i < N-L, A etant 

une constante positive. 

15 Dans une variante du precede de synthese selon r invention, on evalue 

un ensemble de trames recouvrantes successives de N echantillons du signal 
audio ponderes par une fenetre d'analyse, en transformant dans le domaine 
temporel des estimations spectrales correspondant respectivement auxdites 
trames, et on combine les trames evaluees pour former le signal synthetise. 

20 Pour un sous-ensemble des trames evaluees, les estimations spectrales sont 
obtenues en traitant des parametres de synthese respectivement associes aux 
trames dudit sous-ensemble tandis que, pour les trames ne faisant pas partie 
du sous-ensemble, les estimations spectrales sont obtenues avec une 
interpolation tf une partie au moins des parametres de synthese. Les trames 

25 successives dudit sous-ensemble presentent des decalages temporels mutuels 
de M echantillons, le nombre M etant plus grand que N/2, tandis que les trames 
successives dudit ensemble presentent des decalages temporels mutuels de 
M/p echantillons, p etant un entier plus grand que 1. On modifie chaque trame 
evaluee en lui appliquant un traitement correspondant a une division par ladite 

30 fenetre tf analyse et a une multiplication par une fenetre de synthese. et on 
forme le signal synthetise comme une somme a recouvrement des trames 
modifiees. Les echantillons tfune trame ayant des rangs i numerotes de 0 a 
N-1, la fenetre de synthese fs(i) a un support limite aux rangs i allant de 
N/2 - M/p a N/2 + M/p et verifie fs(i) + fs(i + M/p) = A pour N/2 - M/p < i < N/2. 
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A etant une constante positive. 

L invention propose egalement des dispositifs de traitement audio 
comprenant des moyens pour la mise en oeuvre des procedes tf analyse et de 
synthese ci-dessus. 

D'autres particularites et avantages de la presente invention 
apparaltront dans la description ci-apres d'exemples de realisation non 
limitatifs en reference aux dessi ns annexes, dans lesouels : 

- la figure 1 est un schema synoptique tf un codeur audio salon T invention ; 

- les figures 2 et 3 sont des diagrammes illustrant la formation des trames 
de signal audio dans le codeur de la figure 1 ; 

- les figures 4 et 5 sont des graphiques montrant un exemple de spectre 
du signal audio et illustrant I'extraction des enveloppes superieure et 
inferieure de ce spectre ; 

- la figure 6 est un schema synoptique tfun exemple de moyens de 
quantification utilisables dans le codeur de la figure 1 ; 

- la figure 7 est un schema synoptique de moyens utilisables pour extraire 
des parametres se rapportant a ia phase de la composante non- 
harmonique dans une variante du codeur de la figure 1 ; 

- la figure 8 est un schema synoptique d'un decodeur audio correspondent 
au codeur de la figure 1 ; 

- la figure 9 est un organigramme tfun exemple de procedure de lissage 
de coefficients spectraux et tf extraction de phases minimales mise en 
oeuvre dans le decodeur de la figure 8 ; 

- la figure 10 est un schema synoptique de modules tf analyse et de 
mixage spectral de composantes harmonique et non-harmonique du 
signal audio ; 

- les figures 11 a 13 sont des graphiques montrant des exemples de 
fonctions non-iineaires utilisables dans le module tf analyse de la figure 
10; 

- les figures 14 et 15 sont des diagrammes illustrant une fa9on de proceder 
a la synthese temporelle des trames de signal dans le decodeur de la 
figure 8 ; 

- les figures 16 et 17 sont des graphiques montrant des fonctions de 
fenetrage utilisables dans la synthese des trames suivant les figures 14 
et 15 ; 




- les figures 18 et 19 sont des schemas synoptiques de moyens 
d' interpolation utilisables dans une variante de realisation du codeur et du 

decodeur ; 

- la figure 20 est un schema synoptique de moyens d' interpolation 
5 utilisables dans une autre variante de realisation du codeur ; et 

- les figures 21 et 22 sont des diagrammes illustrant une autre fagon de 
proceder a la svnthese temporelle des trames de signal dans le decodeur 

de la figure 8, a I' aide d'une interpolation de parametres. 
Le codeur et le decodeur decrits ci-apres sont des circuits numeriques 

10 qui peuvent, comme il est usuel dans le domaine du traitement des signaux 
audio, etre realises par programmation d'un processeur de signal numerique 
(DSP) ou d'un circuit integre d'application specifique (ASIC). 

Le codeur audio represente sur la figure 1 traite un signal audio 
d'entree x qui, dans I'exemple non-limitatif considere ci-apres. est un signal de 

15 parole. Le signal x est disponible sous forme numerique, par exemple a une 
frequence d'echantillonnage de 8 kHz. 11 est par exemple delivre par un 
convertisseur analogique-numerique traitant le signal de sortie amplifie d'un 
microphone. Le signal d entree x peut egalement etre forme a partir dune autre 
version, analogique ou numerique. codee ou non, du signal de parole. 

20 Le codeur comprend un module 1 qui forme des trames successives 

de signal audio pour les differents traitements effectues, et un multiplexeur de 
sortie 6 qui delivre un flux de sortie <P contenant pour chaque trame des jeux 
de parametres de quantification a partir desquels un decodeur sera capable de 
synthetiser une version decodee du signal audio. 

25 La structure des trames est illustree par les figures 2 et 3. Chaque 

trame 2 est composee d'un nombre N d'echanti lions consecutifs du signal 
audio X. Les trames successives presentent des decalages temporels mutuels 
correspondant a M echantillons, de sorte que leur recouvrement est de 
L = N-M echantillons du signal. Dans I'exemple considere, ou N = 256, 

30 M = 160 et L = 96, la duree des trames 2 est de WF^ = 32 ms, et une trame est 

formee toutes les M/Fg = 20 ms. 

De fa?on classique. le module 1 multiplie les echantillons de chaque 
trame 2 par une fonction de fenetrage f^. de preference choisie pour ses 
bonnes proprietes spectrales. Les echantillons x(i) de la trame etant numerotes 
35 de i = 0 a i = N-1 . la fenetre danalyse f;^(i) peut ainsi etre une fenetre de 



Hamming, d'expression : 



= 0.54 + 0.46. cosf27t^— ^^^-^1 (1 ) 



ou une fenetre de Hanning d'expression : 

1 /' ^ i-fKl-A\tO^ 



U i-(N-1)/2 
1 + cos| 2n — ^— — 
N 



WO = ^ 

r.. . anrnrta i ,np fpn&frp rit> kalQftr ffeynresslon 



(2) 
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OU a est un coefficient par example egal a 6, et \q{,) designe la fonction de 
Bessel d'indice 0. 

Le codeur de la figure 1 procede a une analyse du signal audio dans le 
10 domaine spectral. II comporte un module 3 qui calcule la transformee de 
Fourier rapide (TFR) de chaque trame de signal. La trame de signal est mise 
en forme avant d'etre soumise au module de TFR 3 : le module 1 lui adjoint 
N = 256 echantillons a zero afin d'obtenir la resolution maximale de la 
transformee de Fourier, et il effectue d' autre part une permutation circulaire des 
15 2N = 512 echantillons afin de compenser les effets de phase resultant de la 
fenetre d'analyse. Cette modification de la trame est illustree par la figure 3. La 
trame dont on calcule la transformee de Fourier rapide sur 2N = 512 points 
commence par les N/2 =128 derniers echantillons ponderes de la trame, suivis 
par les N = 256 echantillons a zero, et se termine par les N/2 = 128 premiers 
20 echantillons ponderes de la trame. 

Le module de TFR 3 obtient le spectre du signal pour chaque trame, 
dont le module et la phase sont respectivement notes |X| et cp^, ou |X(i)| et 

(Px(i) pour les index de frequence i = 0 a i = 2N-1 (grace a la symetrie de la 
transformee de Fourier et des trames, on peut se limiter aux valeurs pour 
25 0 < i < N). 

Un detecteur de frequence fondamentale 4 estime pour chaque trame 
de signal une valeur de la frequence fondamentale Fq. Le detecteur 4 peut 

appliquer toute methode connue d'analyse du signal de parole de la trame pour 
estimer la frequence fondamentale Fq. par exemple une methode basee sur la 
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fonction d' autocorrelation ou la fonction AMDF. eventuellement precedee d'un 
module de blanchiment par prediction lineaire. L'estimation peut egalement 
etre effectuee dans le domaine spectral ou dans le domaine cepstral. Une 
autre possibilite est d'evaluer les intervalles de temps entre les ruptures 
5 consecutives du signal de parole attribuables a des fermetures de la glotte du 
locuteur intervenant pendant la duree de la trame. Des methodes blen connues 
utilisables pour detecter de telles micro-ruptures sent decrites dans les articles 
suivants : M. Basseville et al., « Sequential detection ot aorupt cnanges in 
spectral characteristics of digital signals » (IEEE Trans, on Information Theory, 
10 1983. Vol. IT-29, n" 5, pages 708-723) ; R. Andre-Obrecht. « A new statistical 
approach for the automatic segmentation of continuous speech signals » (IEEE 
Q Trans, on Acous., Speech and Sig. Proc. Vol. 36. N»1. janvier 1988); et 

C. MURGIA et al., « An algorithm for the estimation of glottal closure instants 
using the sequential detection of abrupt changes in speech signals » (Signal 
15 Processing VII. 1994, pages 1685-1688). 

La frequence fondamentale estimee Fq fait I'objet d'une quantification, 
par exempie scalaire. par un module 5, qui fournit au multiplexeur de sortie 6 
un index iF de quantification de la frequence fondamentale pour cheque trame 
du signal. 

20 Le codeur utilise des modelisations parametriques cepstrales pour 

representer une enveloppe superieure et une enveloppe inferieure du spectre 
du signal audio. La premiere etape de la transformation cepstrale consiste a 
appliquer au module du spectre du signal une fonction de compression 

o 

spectrale, qui peut etre une fonction logarithmique ou en racine. Le module 8 
25 du codeur opere ainsi, pour chaque valeur X(i) du spectre du signal (0 < i < N). 
la transformation suivante : 

LX{i) = Log(iX(i)|) (4) 
dans le cas d'une compression logarithmique ou 

LX(i) = |X(i)|^ (5) 
30 dans le cas d'une compression en racine. 7 etant un exposant compris entre 0 
et1. 

Le spectre comprime LX du signal audio est traite par un module 9 qui 
extrait des amplitudes spectrales associees aux harmoniques du signal 
correspondent aux multiples de la frequence fondamentale estimee FO. Ces 
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amplitudes sont ensuite interpolees par un module 10 afin d'obtenir una 

enveloppe superieure comprimee notee LX_sup. 

II est a noter que la compression spectrale pourrait de fagon 

equivalente etre effectuee apres la determination des amplitudes associees 
5 aux harmoniques. Elle pourrait egalement etre effectuee apres T interpolation, 

ce qui ne ferait que modifier la forme des fonctions tf interpolation. 
Le module 9 d' extraction des maxima tient compte de reventuelle 

variation de la frequence fondamentale sur la trame d'analyse, des erreurs que 

peut commettre le detecteur 4, ainsi que des imprecisions liees au caractere 
10 discret de Techantillonnage en frequence. Pour cela, la recherche des 

amplitudes des pics spectraux ne consiste pas simplement a prendre les 

valeurs LX(i) correspondant aux index i tels que i.Fg/2N soit la frequence la |p 

plus proche tf une harmonique de frequence k.pQ (k ^ 1). Lamplitude spectrale 

retenue pour une harmonique d'ordre k est un maximum local du module du 
15 spectre au voisinage de la frequence k-Fg (cette amplitude est obtenue 

directement sous forme comprimee lorsque la compression spectrale 8 est 
effectuee avant T extraction des maxima 9). 

Les figures 4 et 5 montrent un example de forme du spectre comprime 
LX, ou on voit que les amplitudes maximales des pics harmoniques ne 
20 coincident pas necessairement avec les amplitudes correspondant aux 
multiples entiers de la frequence fondamentale estimee Fq. Les flancs des pics 

etant assez raides, une petite erreur de positionnement de la frequence 
fondamentale Fq. amplifiee par Tindice tf harmonique k, peut distordre 0 

fortement T enveloppe superieure estimee du spectre et provoquer une 
25 mauvaise modelisation de la structure formantique du signal. Par exemple. 
prendre directement I'amplitude spectrale pour la frequence 3.Fo dans le cas 

des figures 4 et 5 produirait une erreur importante dans Textraction de 
Tenveloppe superieure au voisinage de Tharmonique d'ordre k = 3, alors qu'il 
s'agit d'une zone energetiquement importante dans Texemple dessine. En 
30 effectuant 1' interpolation a partir du veritable maximum, on evite ce genre 
d'erreur d'estimation de Tenveloppe superieure. 

Dans Texemple represents sur la figure 4, T interpolation est effectuee 
entre des points dont I'abscisse est la frequence correspondant au maximum 
de I'amplitude tf un pic spectral, et dont Tordonnee est ce maximum, avant ou 




apres compression. 

L' interpolation effectuee pour calculer I'enveloppe superieure LX_sup 
est une simple interpolation lineaire. Bien entendu una autre forme 
d' interpolation pourrait etre utilisee (par exemple polynomiale ou spline). 
5 Dans la variante preferee representee sur la figure 5, I'interpolatlon est 

effectuee entre des points dont I'abscisse est une frequence K.Fq multiple de la 

fr eq ua nc" f'->r>Hame>ntaio (p>n fait la fmquence la plus oroche dans le spectre 

discret) et dont I'ordonnee est I'amplitude maximale, avant ou apres 
compression, du spectre au voisinage de cette frequence multiple. 

10 En comparant les figures 4 et 5, on peut voir que le mode d' extraction 

selon la figure 5, qui repositionne les pics sur les frequences harmoniques, 
conduit a une meilleure precision sur I'amplitude des pics que le decodeur 
attribuera aux frequences multiples de la frequence fondamentale. II peut se 
produire un leger deplacement en frequence de la position de ces pics, ce qui 

15 n'est pas perceptuellement tres important et n'est d'ailleurs pas evite non plus 
dans le cas de la figure 4. Dans le cas de la figure 4, les points d'ancrage pour 
r interpolation sont confondus avec les sommets des pics harmoniques. Dans le 
cas de la figure 5, on impose que ces points d'ancrage se trouvent precisement 
aux frequences multiples de la frequence fondamentale. leurs amplitudes 

20 correspondant a celles des pics. 

L'intervalle de recherche du maximum d'amplitude associe a une 
harmonique de rang k est centre sur I' index i de la frequence de la TFR la plus 

, ou [aj designe rentier egal ou 



proche de W.Fq, c'est-a-dire i = 



immediatement inferieur au nombre a. La largeur de cet intervalle de recherche 
25 depend de la frequence d'echantillonnage F^, de la taille 2N de la TFR et de la 
gamme de variation possible de la frequence fondamentale. Cette largeur est 
typiquement de I'ordre d'une dizaine de frequences avec les examples de 
valeurs precedemment consideres. On peut la rendre reglable en fonction de la 
valeur Fq de la frequence fondamentale et du numero k de I'harmonique. 
30 Afin d'ameliorer la resolution dans les basses frequences et done de 

representor plus fidelement les amplitudes des harmoniques dans cette zone, 
une distorsion non-lineaire de I'echelle des frequences est operee sur 
I'enveloppe superieure comprimee par un module 12 avant que le module 13 
effectue la transformee de Fourier rapide inverse (TFRI) fournissant les 
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coefficients cepstraux cx_sup. 

La distorsion non-lineaire permet de minimiser plus efficacement 
I'erreur de modelisation. Elle est par exemple effectuee selon une echelle de 
frequences de type Mel ou Bark. Cette distorsion peut eventuellement 
dependre de la frequence fondamentale estimee Fq. La figure 1 illustre le cas 

de Techelle Mel. La relation entre les frequences F du spectre lineaire, 



^ 1000 , r F ^ 

Afin de linniter le debit de transmission, une troncature des coefficients 
10 cepstraux cx_sup est effectuee. Le module de TFRI 13 a besoin de calculer 

seulement un vecteur cepstral de NCS coefficients cepstraux d'ordres 0 a 

NCS-1. A titre d' exemple, NCS peut etre egal a 16. 

Un post-filtrage dans le domaine cepstral, appele post-liftrage, est 

applique par un module 15 a Tenveioppe superieure comprimee LX_sup. Ce 
15 post-liftrage correspond a une manipulation des coefficients cepstraux cx_sup 

delivres par le module de TRFI13, qui correspond approximativement a un 

post-filtrage de la partie harmonique du signal par une fonction de transfert 

ayant la forme classique : 

H,.) = (1-.Z-')^ 

20 OU A(z) est la fonction de transfert d'un filtre de prediction lineaire du signal 
audio, et 72 sont des coefficients compris entre 0 et 1, et n est un coefficient 

de preaccentuation eventuellement nul. La relation entre le coefficient post-liftre 
d'ordre i, note Cp(i), et le coefficient cepstral correspondant c(i) = cx_sup(i) 
delivre par le module 13 est alors : 

Cp(0) = c(O) 

CpO) = il + Y2 - Yi - pour I > 0 

Le coefficient de preaccentuation optionnel |a peut etre controle en 
posant comme contra inte de preserver la valeur du coefficient cepstral 
cx_sup(1) relatif a la pente. En effet. la valeur c(1) = cx_sup(1) d'un bruit blanc 
filtre par le filtre de preaccentuation correspond au coefficient de 
30 preaccentuation. On peut ainsi choisir ce dernier de la fagon suivante : 
^ = (Y2-^i)c(1). 



Apres le post-liftre 15, un module de normalisation 16 modifie encore 
les coefficients cepstraux en imposant la contrainte de modelisation exacte 
d'un point du spectre initial, qui est de preference le point le plus energetique 
parmi les maxima spectraux extraits par le module 9. En pratique, cette 
5 normalisation modifie seulement la valeur du coefficient Cp(0). 

Le module de normalisation 16 fonctionne de la fagon suivante : il 
recalcule una valeur du spectre synthetise a la frequence du maximum indique 
par le module 9. par transformee de Fourier des coefficients cepstraux 
tronques et post-liftres, en tenant compte de la distorsion non-lineaire de I'axe 
10 des frequences ; il determine un gain de normalisation par la difference 
logarithmique entre la valeur du maximum fournie par le module 9 et cette 
valeur recalculee ; et il ajoute le gain g^ au coefficient cepstral post-liftre cp(0). 

Cette normalisation peut etre vue comme faisant partie du post-liftrage. 

Les coefficients cepstraux post-liftres et normalises font I'objet d'une 
15 quantification par un module 18 qui transmet des index de quantification 
correspondants icxs au multiplexeur de sortie 6 du codeur. 

Le module 18 peut fonctionner par quantification vectorielle a partir de 
vecteurs cepstraux formes de coefficients post-liftres et normalises, notes ici 
cx[n] pour la trame de signal de rang n. A titre d'exemple. le vecteur cepstral 
20 cx[n] de NCS = 16 coefficients cepstraux cx[n,0]. cx[n,1], .... cx[n,NCS-1] est 
distrlbue en quatre sous-vecteurs cepstraux contenant chacun quatre 
coefficients d'ordres consecutifs. Le vecteur cepstral cx[n] peut etre traite par 
les moyens representes sur la figure 6, faisant partie du module de 
quantification 18. Ces moyens mettent en oeuvre, pour chaque composante 
25 cx[n,i], un predicteur de la forme : 

cxp[n, i] = (l - a(i)). rcx(n, i] + a(i). rcx[n-1, i] (9) 

ou rcx[n] designe un vecteur residuel de prediction pour la trame de rang n 
dont les composantes sont respectivement notees rcx[n,0], rcx[n,1], 
rcx[n,NCS-1], et a(i) designe un coefficient de prediction choisi pour etre 
30 representatif d'une correlation inter-trame supposee. Apres quantification des 
residus, ce vecteur residuel est defini par : 

rcxln,0= °""'"-°';^^^-''"-^" (10) 
OU rcx_q[n-1 ] designe le vecteur residuel quantifie pour la trame de rang n-1 , 
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dont les composantes sont respectivement notees rcx_q[n,0], rcx_q[n.1], .... 
rcx_q[n,NCS-1]. 

Le numerateur de la relation (10) est obtenu par un soustracteur 20. 
dont les composantes du vecteur de sortie sont divisees par les quantites 
5 2-a(i) en 21. Aux fins de la quantification, le vecteur residuel rcx[n] est 
subdivise en quatre sous-vecteurs, correspondant a la subdivision en quatre 

sous-vecteurs cepstraux. Sur la base tfun dictionnaire obtenu par 

apprentissage prealable, T unite 22 precede a la quantification vectorielle de 
chaque sous-vecteur du vecteur residuel rcx[n]. Cette quantification peut 
10 consister, pour chaque sous-vecteur srcx[n], a selectionner dans le dictionnaire 
le sous-vecteur quantifie srcx_q[n] qui minimise Terreur quadratique 

||srcx[n] - srcx_q[n|^ . L' ensemble icxs des index de quantification icx, 

correspondant aux adresses dans le ou les dictionnaires des sous-vecteurs 
residuels quantifies srcx_q[n], est fourni au multiplexeur de sortie 6. 

15 L'unite 22 delivre egalement les valeurs des sous-vecteurs residuels 

quantifies, qui forment le vecteur rcx_q[n]. Celui-ci est retarde d*une trame en 
23, et ses composantes sont multipliees par les coefficients a(i) en 24 pour 
fournir le vecteur a T entree negative du soustracteur 20. Ce dernier vecteur est 
d'autre part fourni a un additionneur 25, dont Tautre entree regoit un vecteur 

20 forme par les composantes du residu quantifie rcx_q[n] respectivement 
multipliees par les quantites 1-a(i) en 26. L'additionneur 25 delivre ainsi le 
vecteur cepstral quantifie cx_q[n] que recuperera le decodeur. 

Le coefficient de prediction a(i) peut etre optimise separement pour 
chacun des coefficients cepstraux, Les dictionnaires de quantification peuvent 

25 aussi etre optimises separement pour chacun quatre sous-vecteurs cepstraux. 
□'autre part, il est possible, de fagon connue en soi, de normaliser les vecteurs 
cepstraux avant rfappliquer le schema de prediction/quantification, a partir de 
la variance des cepstres. 

II est a noter que le schema ci-dessus de quantification des coefficients 

30 cepstraux peut n'etre applique que pour certaines seulement des trames. Par 
exemple, on peut prevoir un second mode de quantification ainsi qu'un 
processus de selection de celui des deux modes qui minimise un critere de 
moindres carres avec les coefficients cepstraux a quantifier, et transmettre 
avec les index de quantification de la trame un bit indiquant lequel des deux 

35 modes a ete selectionne. 
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Les coefficients cepstraux quantifies cx_sup_q = cx_q[n] fournis par 
radditionneur 25 sont adresses a un module 28 qui recalcule les amplitudes 
spectrales associees a une ou piusieurs des harmoniques de la frequence 
fondamentale Fq (figure 1). Ces amplitudes spectrales sont par exemple 

5 calculees sous forme comprimee. en appliquant la transformee de Fourier aux 
coefficients cepstraux quantifies en tenant compte de la distorsion non-lineaire 
Ho i'orh«=.iiA Hps frequences utilisee dans la transformation cepstrale. Les 
amplitudes ainsi recalculees sont fournies a un module d' adaptation 29 qui les 
compare a des amplitudes de maxima determinees par le module d' extraction 

10 9. 

Le module d" adaptation 29 controle le post-liftre 15 de fagon a 
minimiser un ecart de module entre le spectre du signal audio et les valeurs de 
module correspondantes calculees en 28. Get ecart de module peut etre 
exprime par une somme de valeurs absolues de differences d'amplitudes. 

15 comprimees ou non. correspondent a une ou piusieurs des frequences 
harmoniques. Cette somme peut etre ponderee en fonction des amplitudes 
spectrales associees a ces frequences. 

De fagon optimale, I' ecart de module pris en compte dans I" adaptation 
du post-liftrage tiendrait compte de toutes les tiarmoniques du spectre. 

20 Cependant. afin de reduire la complexite de I'optimisation, le module 28 peut 
ne resynthetiser les amplitudes spectrales que pour une ou piusieurs 
frequences multiples de la frequence fondamentale Fq, selectionnees sur la 
base de 1' importance du module du spectre en valeur absolue. Le module 
d'adaptation 29 peut par exemple considerer les trois pics spectraux les plus 

25 intenses dans le calcul de I" ecart de module a minimiser. 

Dans une autre realisation, le module d'adaptation 29 estime une 
courbe de masquage spectral du signal audio au moyen d'un modele 
psychoacoustique, et les frequences prises en compte dans le calcul de 1' ecart 
de module a minimiser sont selectionnees sur la base de {'importance du 

30 module du spectre relativement a la courbe de masquage (on peut par 
exemple prendre les trois frequences pour lesquelles le module du spectre 
depasse le plus de la courbe de masquage). Differentes methodes classiques 
sont utilisables pour calculer la courbe de masquage a partir du signal audio. 
On peut par exemple utillser celle developpee par J.D. Johnston (« Transform 

35 Coding of Audio Signals Using Perceptual Noise Criteria », IEEE Journal on 
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Selected Area in Communications, Vol. 6, No. 2, fevrier 1988). 

Pour realiser Tadaptation du post-liftrage, le module 29 peut utiliser un 
modele d' identification de filtre. Une methode plus simple consists a predefinir 
un ensemble de jeux de parametres de post-liftrage, c'est-a-dire un ensemble 
5 de couples y^^yi d^ns le cas tfun post-liftrage selon les relations (8), a 

effectuer les operations incombant aux modules 15, 16, 18 et 28 pour chacun 

de c e a joux do poromotroo, ot q rotonir co l u i d e y j Q U,Y dp paramptrps qu i 

conduit a Tecart de module minimal entre le spectre du signal et les valeurs 
recalculees. Les index de quantification fournis par le module 18 sont alors 
10 ceux qui se rapportent au meilleur jeu de parametres. 

Par un processus analogue a celui de Textraction des coefficients 
cx_sup representant I'enveloppe superieure comprimee LX_sup du spectre du 
signal, le codeur determine des coefficients cxjnf representant une enveloppe 
inferieure comprimee LX_inf. Un module 30 extrait du spectre comprime LX 
15 des amplitudes spectrales associees a des frequences situees dans des zones 
du spectre intermediaires par rapport aux frequences multiples de la frequence 
fondamentale estimee Fq. 

Dans Texemple iilustre par les figures 4 et 5, chaque amplitude 
associee a une frequence situee dans une zone intermediaire entre deux 
20 harmoniques successives k.FQ et (k+1).FQ correspond simplement au module 

du spectre pour la frequence (k+1/2).Fo situee au milieu de Tintervalle separant 

les deux harmoniques. Dans une autre realisation, cette amplitude pourrait etre 
une moyenne du module du spectre sur une petite plage entourant cette 
frequence (k+1/2).Fo. 

25 Un module 31 procede a une interpolation, par exemple lineaire, des 

amplitudes spectrales associees aux frequences situees dans les zones 
intermediaires pour obtenir I'enveloppe inferieure comprimee LXJnf. 

La transformation cepstrale appliquee a cette enveloppe inferieure 
comprimee LXJnf est effectuee suivant une echelle de frequences resultant 

30 une distorsion non-lineaire appliquee par un module 32. Le module de TFRI 
33 calcule un vecteur cepstral de NCI coefficients cepstraux cxJnf tfordres 0 a 
NCI-1 representant Tenveloppe inferieure. NCI est un nombre qui peut etre 
sensiblement plus petit que NCS, par exemple NCI = 4. 

La transformation non-lineaire de 1' echelle des frequences pour la 

35 transformation cepstrale de I'enveloppe inferieure peut etre realisee vers une 
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echelle plus fine aux hautes frequences qu'aux basses frequences, ce qui 
permet avantageusement de bien modeliser les composantes non-voisees du 
signal aux hautes frequences. Toutefois, pour assurer une homogeneite de 
representation entre I'enveloppe superieure et I'enveloppe inferieure, on pourra 
5 preferer adopter dans le module 32 la meme echelle que dans ie module 12 
(Mel dans I'exemple considere). 

Les coefficients cepstraux cxjnf representant I'enveloppe inferieure 
comprimee sont quantifies par un module 34, qui peut fonctionner de la meme 
maniere que le module 18 de quantification des coefficients cepstraux 
10 representant I'enveloppe superieure comprimee. Dans le cas considere, ou on 
se limite a NCI = 4 coefficients cepstraux pour I'enveloppe inferieure, le vecteur 
ainsi forme est soumis a une quantification vectorielle de residu de prediction, 
effectuee par des moyens identiques a ceux representes sur la figure 6 mais 
sans subdivision en sous-vecteurs. L'index de quantification icx=icxi 
1 5 determine par le quantificateur vectoriel 22 pour chaque frame relativement aux 
coefficients cx_inf est fourni au multiplexeur de sortie 6 du codeur. 

Le codeur represente sur la figure 1 ne comporte aucun dispositif 
particulier pour coder les phases du spectre aux harmoniques du signal audio. 

En revanche, il comporte des moyens 36-40 pour coder une 
20 information temporelle liee a la phase de la composante non-harmonique 
representee par I'enveloppe inferieure. 

Un module 36 de decompression spectrale et un module 37 de TFRI 
forment une estimation temporelle de la frame de la composante non- 
harmonique. Le module 36 applique une fonction de decompression reciproque 
25 de la fonction de compression appliquee par le module 8 (c'est-a-dire une 
exponentlelle ou une fonction puissance l/y) a I'enveloppe inferieure 
comprimee LXJnf produite par le module d' Interpolation 31. Ceci fournit le 
module de la frame estimee de la composante non-harmonique, dont la phase 
est prise egale a celle cp^ du spectre du signal X sur la frame. La transformee 
30 de Fourier inverse effectuee par le module 37 fournit la frame estimee de la 
composante non-harmonique. 

Le module 38 subdivise cette frame estimee de la composante non- 
harmonique en plusieurs segments temporels. La trame delivree par le module 
37 se composant de 2N=512 echantillons ponderes comme illustre par la 
35 figure 3, le module 38 considere seulement les N/2 = 128 premiers echantillons 
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et les N/2 = 128 derniers echantillons. et les subdivise par exemple en 
huit segments de 32 echantillons consecutifs representant chacun 4 ms de 
signal. 

Pour chaque segment, le module 38 calcule Tenergie egale a la 
5 somme des carres des echantillons, et forme un vecteur E1 forme de 
huit composantes reelles positives egales aux huit energies calculees. La plus 

grande de ces huit enercies. notee EM. est egalement determinee pour etre 

fournie, avec le vecteur El , a un module de normalisation 39. Celui-ci divise 
chaque composante du vecteur E1 par EM, de sorte que le vecteur normalise 

10 Emix est forme de huit composantes comprises entre 0 et 1. Cest ce vecteur 
normalise Emix, ou vecteur de ponderation, qui est soumis a la quantification 
par le module 40. Celui-ci peut operer une quantification vectorielle avec un 
dictionnaire determine lors d'un apprentissage preaiable. L' index de 
quantification iEm est fourni par le module 40 au multiplexeur de sortie 6 du 

15 codeur. 

La figure 7 montre une variante de realisation des moyens employes 
par le codeur de la figure 1 pour determiner le vecteur Emix de ponderation 
energetique de la trame de la composante non-harmonique. Les modules 36. 
37 de decompression spectrale et de TFRI fonctionnent comme ceux qui 
20 portent les memes references sur la figure 1. Un module de selection 42 est 
ajoute pour determiner la valeur du module du spectre soumis a la transformee 
de Fourier inverse 37. Sur la base de la frequence fondamentale estimee Fq, le 

module 42 identifie des regions harmoniques et des regions non-harmoniques 
du spectre du signal audio. Par exemple, une frequence sera consideree 
25 comme appartenant a une region harmonique si elle se trouve dans un 
intervene de frequences centre sur une harmonique k.Fg et de largeur 

correspondent a une largeur de raie spectrale synthetisee. et a une region non- 
harmonique sinon. Dans les regions non-harmoniques. le signal complexe 
soumis a la TFRI 37 est egal a la valeur du spectre, c'est-a-dire que son 
30 module et sa phase correspondent aux valeurs |X| et cp^ foumies par le module 

de TFR 3. Dans les regions harmoniques, ce signal complexe a la meme 
phase cpx que le spectre et un module donne par I'enveloppe inferieure apres 

decompression spectrale 36. Cette fafon de proceder selon la figure 7 procure 
une modelisation plus precise des regions non-harmoniques. 
35 Le decodeur represents sur la figure 8 comprend un demultiplexeur 



d'entree 45 qui extrait du flux binaire 0), issu d'un codeur selon la figure 1. les 
index iF. icxs, icxi, iEm de quantification de la frequence fondamentale Fq, des 
coefficients cepstraux representant Tenveioppe superieure comprimee. des 
coefficients representants Tenveloppe inferieure comprimee, et du vecteur de 
ponderation Emix, et les distribue respectivement a des modules 46, 47, 48 et 
49. Ces modules 46-49 comportent des dictionnaires de quantification 
<^Rmblables a ceux des modules 5. 18. 34 et 40 de la figure 1, afin de restituer 
les valeurs des parametres quantifies. Les modules 47 et 48 ont des 
dictionnaires pour former les residus de prediction quantifies rcx_q[n]. et ils en 
deduisent les vecteurs cepstraux quantifies cx_q[n] avec des elements 
identiques aux elements 23-26 de la figure 6. Ces vecteurs cepstraux 
quantifies cx_q[n] fournissent les coefficients cepstraux cx_sup_q et cxjnf_q 
traites par le decodeur. 

Un module 51 calcule la transformee de Fourier rapide des coefficients 
cepstraux cx_sup pour chaque trame de signal. L'echelle des frequences du 
spectre comprime qui en resulte est modifiee non-lineairement par un module 
52 appliquant la transformation non-lineaire reciproque de celle du module 12 
de la figure 1, et qui fournit Testimation LX_sup de Tenveloppe superieure 
comprimee. Une decompression spectrale de LX_sup, operee par un module 
53, fournit I'enveloppe superieure X_sup comportant les valeurs estimees du 
module du spectre aux frequences multiples de la frequence fondamentale Fq. 
Le module 54 synthetise Testimation spectrale de la composante 
harmonique du signal audio, par une somme de raies spectrales centrees sur 
les frequences multiples de la frequence fondamentale Fq et dont les 
amplitudes (en module) sont celles donnees par I'enveloppe superieure X_sup. 

Bien que le flux numerique dentree O ne comporte pas tf informations 
specifiques sur la phase du spectre du signal aux harmoniques de la frequence 
fondamentale, le decodeur de la figure 8 est capable d'extraire de rinformation 
sur cette phase a partir des coefficients cepstraux cx_sup_q representant 
I'enveloppe superieure comprimee. Cette information de phase est utilisee pour 
affecter une phase (p(k) a chacune des raies spectrales determinees par le 
module 54 dans Testimation de la composante harmonique du signal. 

En premiere approximation, le signal de parole peut etre considere 
comme etant a phase minimale. D'autre part, il est connu que 1' information de 
phase minimale peut se deduire facilement d'une modelisation cepstrale. Cette 
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information de phase minimale est done calculee pour chaque frequence 
harmonique. L'hypothese de phase minimale signifie que Tenergie du signal 
synthetise est localisee au debut de chaque periode de la frequence 
fondamentale Fq. 

Pour etre plus proche d'un signal de parole reel, on introduit un peu de 
dispersion au moyen d'un post-liftrage specifique des cepstres lors de la 

nwr>»hr>or> r\n H phn.e.A— Aiztf^rQ pnctJiff rono^ offo/^f ■ lo par Ip^ mn di ilf:^ Ho la 



figure 8, il est possible d'accentuer les resonances formantiques de Tenveloppe 
et done de controler la dispersion des phases. Ce post-liftrage est par exemple 
de la forme (8). 

Pour limiter les ruptures de phase, il est preferable de lisser les 
coefficients cepstraux post-iiftres, ce qui est effectue par le module 56. Le 
module 57 deduit des coefficients cepstraux post-liftres et lisses la phase 
minimale affectee a chaque raie spectrale representant un pic harmonique du 
spectre. 

Les operations effectuees par les modules 56, 57 de lissage et 
d'extraction de la phase minimale sont illustrees par Torganigramme de la 
figure 9, Le module 56 examine les variations des coefficients cepstraux pour 
appliquer un lissage moins important en presence de variations brusques qu'en 
presence de variations lentes. Pour cela, il effectue le lissage des coefficients 
cepstraux au moyen d'un facteur d'oubli choisi en fonction d'une 
comparaison entre un seuil d^^ et une distance d entre deux jeux successifs de 
coefficients cepstraux post-liftres. Le seuil d^j, est lui-meme adapte en fonction 
des variations des coefficients cepstraux. 

La premiere etape 60 consiste a calculer la distance d entre les deux 
vecteurs successifs relatifs aux trames n-1 et n. Ces vecteurs, notes ici 
cxp[n-1] et cxp[n], correspondent pour chaque trame a I'ensemble des NCS 
coefficients cepstraux post-liftres representant I'enveloppe superieure 
comprimee. La distance utilisee peut notamment etre la distance euclidienne 
entre les deux vecteurs ou encore une distance quadratique. 

Deux lissages sont d'abord effectues, respectivement au moyen de 
facteurs d'oubli X^-^^ et X^^^, pour determiner une distance minimale d^j^^ et 

une distance maximale d^gx- ^th ensuite determine a Tetape 70 

comme etant situe entre les distances minimale et maximale d-^:-, d^-. : 

1 1 Hi I iTioX 
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dth = P ^max + (''-P)-dmin' '® coefficient p etant par exemple egal a 0.5. 

Dans I' exemple represente, les facteurs d'oubli X^^^^ et X^^^ sont eux- 
memes selectionnes parmi deux valeurs distinctes, respectivement X^jni. >^min2 
et X^axv ^max2 comprises entre 0 et 1. les indices Xj^„^, X^^^ etant chacun 

5 sensiblement plus pres de 0 que les indices X^j^g. ^max2- Si d > d^j^ (test 61), 
le facteur d'oubli X^-.^ est egal a (etape 62) ; sinon il est pris egal a Xj^^^2 
(etape 63). A I'etape 64. la distance minimale d^^jn est prise egale a 
'^min-dmin (1->^min) d. Si d > d^^ (test 65). le facteur d'oubli ^.^3^ est egal a 
^maxi (®*^P® = P""'® ^ ^ax2 (©taP© 67). A I'etape 68. la 

10 distance minimale d^^gx ®st prise egale a X^ax-dmax C'^max) *^- 

Si la distance d entre les deux vecteurs cepstraux consecutifs est plus 
grande que le seuil d^^ (test 71), on adopte pour le facteur d'oubli X^ une valeur 
relativement proche de 0 (etape 72). On considere dans ce cas que le 
signal correspondant est de type non stationnaire, de sorte qu'il n'y a pas lieu 

15 de conserver une grande memoire des coefficients cepstraux anterieurs. Si 
d < djh. on adopte a I'etape 73 pour le facteur d'oubli X^. une valeur X^^ moins 
proche de 0 afin de lisser davantage les coefficients cepstraux. Le lissage est 
effectue a I'etape 74, ou le vecteur cxl[n] de coefficients lisses pour la trame 
courante n est determine par : 

20 cxl[n] = >.ccxl[n-1] + {^-Xc )cxp[n] (1 1 ) 

Le module 57 calcule ensuite les phases minimales (p(k) associees aux 
harmoniques K.Fq. De fafon connue, la phase minimale pour une harmonique 
d'ordre k est donnee par : 

NCS-1 

(p(k) = -2. 2] cxl[n,m].sin(27tmkFo/Fe) (12) 
nn=1 

25 OU cxl[n,m] designe le coefficient cepstral lisse d'ordre m pour la trame n. 

A I'etape 75. I'index d'harmonique k est initialise a 1. Pour initialiser le 
calcul de la phase minimale affectee a I'harmonique k, la phase <p{k) et I'index 
cepstral m sont initialises respectivement a 0 et 1 a I'etape 76. A I'etape 77, le 
module 57 ajoute a la phase (p(k) la quantite -2.cxl[n,m].sin(27cmk.Fo/Fg). 

30 L'index cepstral m est incremente a I'etape 78 et compare a NCS a I'etape 79. 
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Les etapes 77 et 78 sont repetees tant que m < NCS. Quand m = NCS, le 
calcul de la phase minimale est termine pour rharmonique k, et I'index k est 
incremente a Fetape 80. Le calcul de phases minimales 76-79 est renouvele 
pour rharmonique suivante tant que k.Fg < f^e^2 (test 81). 

5 Dans Texemple de realisation selon la figure 8, le module 54 tient 

compte d'une phase constante sur la iargeur de chaque raie spectrale, egale a 

module 57. 

L'estimation de la composante harmonique est synthetisee par 

10 sommation de raies spectrales positionnees aux frequences harmoniques de la 
frequence fondamentale Fg. Lors de cette synthese, on peut positionner les 

raies spectrales sur I'axe des frequences avec une resolution superieure a la 
resolution de la transformee de Fourier. Pour cela, on precalcuie une fois pour 
toutes une raie spectrale de reference selon la resolution superieure. Ce calcul 

15 peut consister en une transformee de Fourier de la fenetre tf analyse fA avec 

une taille de transformee de 16384 points, procurant une resolution de 0,5 Hz 
par point. La synthese de chaque raie harmonique est alors effectuee par le 
module 54 en positionnant sur Taxe des frequences la raie de reference a 
haute resolution, et en sous-echantillonnant cette raie spectrale de reference 

20 pour se ramener a la resolution de 16,625 Hz de la transformee de Fourier sur 
512 points. Ceci permet de positionner avec precision la raie spectrale. 

Pour la determination de I'enveloppe inferieure, le module de TFR 85 
du decodeur de la figure 8 revolt les NCI coefficients cepstraux quantifies 
cxjnf_q d'ordres 0 a NCI-1, et il les complete avantageusement par les 

25 NCS - NCI coefficients cepstraux cx_sup_q d'ordre NCI a NCS - 1 
representant Tenveioppe superieure. En effet, on peut estimer en premiere 
approximation que les variations rapides de Tenveloppe inferieure comprimee 
sont bien reproduites par celles de I'enveloppe superieure comprimee. Dans 
une autre realisation, le module de TFR 85 pourrait ne considerer que les NCI 

30 parametres cepstraux cx_inf_q. 

Le module 86 convertit I'echelle de frequences de maniere reciproque 
de la conversion operee par le module 32 du codeur, afin de restituer 
Testimation LXJnf de I'enveloppe inferieure comprimee, soumise au module de 
decompression spectrale 87. En sortie du module 87. le decodeur dispose 
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d'une enveloppe inferieure XJnf comportant les valeurs du module du spectre 
dans les vallees situees entre les pics harmoniques. 

Cette enveloppe XJnf va moduler le spectre d'une trame de bruit dont 
la phase est traitee en fonction du vecteur de ponderation quantifie Emix extrait 

5 par le module 49. Un generateur 88 delivre une trame de bruit normalise dont 
les segments de 4 ms sont ponderes dans un module 89 conformement aux 
composantes normal isees du vecteur Emix fourni par le module 49 pour la 
trame courante. Ce bruit est un bruit blanc filtre passe-haut pour tenir compte 
du faible niveau qu'a en principe la composante non-voisee aux basses 

10 frequences. A partir du bruit pondere en energie, le module 90 forme des 
trames de 2N = 512 echantillons en appliquant la fenetre d' analyse f^^, 
I'insertion de 256 echantillons a zero et la permutation circulaire pour la 
compensation de phase conformement a ce qui a ete explique en reference a 
la figure 3. La transformee de Fourier de la trame resultante est calculee par le 

15 module TFR 91. 

L'estimation spectrale X^^ de la composante non-harmonique est 

determinee par le module de synthese spectrale 92 qui effectue une 
ponderation frequence par frequence. Cette ponderation consiste a multiplier 
chaque valeur spectrale complexe fournle par le module de TFR 91 par la 
20 valeur de 1' enveloppe inferieure XJnf obtenue pour la meme frequence par le 
module de decompression spectrale 87. 

Les estimations spectrales X^, X^^ des composantes harmonlque 

(voisee dans le cas d'un signal de parole) et non-harmonique (ou non-voisee) 
sont combinees par un module de mixage 95 controle par un module 96 

25 d'analyse du degre d'harmonicite (ou de voisement) du signal. 

L' organisation de ces modules 95. 96 est illustree par la figure 10. Le 
module d'analyse 96 comporte une unite 97 d' estimation d'un degre de 
voisement W dependant de la frequence, a partir duquel sont calcules quatre 
gains dependant de la frequence, a savoir deux gains g^. g^^ controlant 

30 r importance relative des composantes harmonlque et non-harmonique dans le 
signal synthetise, et deux gains g^_^, g^^^_^ utilises pour bruiter la phase de la 

composante harmonlque. 

Le degre de voisement W(i) est une valeur a variation continue 
comprise entre 0 et 1 determinee pour chaque index de frequence i (0 < i < N) 
35 en fonction de I'enveloppe superieure X_sup(i) et de I'enveloppe inferieure 
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XJnf(i) obtenues pour cette frequence i par les modules de decompression 53, 
87. Le degre de voisement W(i) est estime par Tunite 97 pour chaque index de 
frequence i correspondent a une harmonique de la frequence fondamentale Fq, 



a savoir i = 



2Nk^ + I 



pour k = 1,2,..., par une fonction croissante du 
rapport entre I'enveloppe superieure X_sup et I'enveloppe inferieure XJnf a 



cette frequence, pdr" 6xefttfil6 SSlTOll \'<i IUIIHUl« ; ■ — 

XA// N • L 10.logio[X sup(i)/X inf(i)]1 

W(,) = m,n|l, ^^°^^h(Fo) " I ^'^^ 

Le seuil Vth(FQ) correspond a la dynamique moyenne calculee sur un spectre 
synthetique purement voise a la frequence fondamentale. 11 est 
avantageusement choisi dependant de la frequence fondamentale Fq. 

Le degre de voisement W(i) pour une frequence autre que les 
frequences harmoniques est obtenu simplement comme etant egal a celui 
estime pour Tharmonique la plus proche. 

Le gain g^{\), qui depend de la frequence, est obtenu en appliquant une 

fonction non-lineaire au degre de voisement W(i) (bloc 98). Cette fonction non- 
lineaire a par exemple la forme representee sur la figure 1 1 : 

g^(i) = 0 siO<W(i)^W1 
Wfi)- W1 

gv(i)= W2.W1 ^*W1<W(i)<W2 (14) 
g^(i) = 1 siW2<W(i)<1 
les seuils W1, W2 etant tels que 0<W1 <W2< 1. Le gain g^^ peut etre 
calcule de maniere semblable au gain g^ (la somme des deux gains g^, g^^ 
etant constante, par exemple egale a 1). ou deduit simplement de celui-ci par 
la relation g^^{\) = 1 - g^(i), comme schematise par le soustracteur 99 sur la 
figure 10. 

II est interessant de pouvoir bruiter la phase de la composante 
harmonique du signal a une frequence donnee si T analyse du degre de 
voisement montre que le signal est plutot de type non-harmonique a cette 
frequence. Pour cela, la phase (p^ de la composante harmonique mixee est le 
resultat dune combinaison lineaire des phases cp^, cp^^ des composantes 
harmonique et non-harmonique X^, X^^ synthetisees par les modules 54, 92. 



^^^^ 

CI 
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Les gains ^p, gy^ <p respectivement appliques a ces phases sont calcules a 
partir du degre de voisement W et ponderes egalement en fonction de I'index 
de frequence i, etant donne que le bruitage de la phase n'est veritablement 
utile qu'au-dela d'une certaine frequence. 

Un premier gain g^^ ^ est calcule en appliquant une fonction non- 

lineaire au degre de voisement W(i), comme schematise par le bloc 100 sur la 
figure 10. Cotto fonction nonnlineairQ pent avoir la fnrmp rpprRSPntRR sur la 
figure 12 : 

gvl_cp(') = G1 siO<W(i)<W3 

gv1_„0)=G1 + (l-Gl)^|;^ siW3<W(i)<W4 (15) 

gvl_9(0 = 1 siW4<W(i)<1 
les seuils \N3 et W4 etant tels que 0 < W3 < W4 < 1. et le gain minimal G1 
etant compris entre 0 et 1. 

Un multiplieur 101 multiplie pour chaque frequence d'index i le gain 
Qvi cp P^"" autre gain <p dependant seulement de {'index de frequence i, 
pour former le gain gv_<p(i)- Le gain gv2_cp(') depenci non-lineairement de I'index 
de frequence i, par exemple comme indique sur la figure 13 ; 

gv2_q,(') = 1 siO<i<i1 

gv2_cpO)=1-(l-G2)^ sii1<i<i2 (16) 

Sv2_(p(') = G2 sii2<i^1 
les index i1 et 12 etant tels que 0 < i1 < 12 < N, et le gain minimal G2 etant 
compris entre 0 et 1. Le gain guv_(p(') pe^t etre calcule simplement comme 
etant egai a 1 -g^_^0) = 1 -gvi_q>(i) gv2_q,(') (soustracteur 102 de la figure 
10). 

Le spectre complexe Y du signal synthetise est produit par le module 
de mixage 95, qui realise la relation de mixage suivante, pour 0 ^ i < N : 

Y(i) = gv(i) |Xv(i)|- expD(Pv(')] + guv(')- ^uvO) C 

avec (PvO) = gv_<p(')- fPv(') + guv_cp(')- 9uv(') c 

ou <py(i) designe ['argument du nombre complexe X^{\) fourni par le module 54 
pour la frequence d'index i (bloc 104 de la figure 10), et <p^^{i) designe 
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r argument du nombre complexe fourni par le module 92 (bloc 105 de la 

figure 10). Cette combinaison est realisee par les multiplieurs 106-110 et les 
additionneurs 111-112 representes sur la figure 10. 

Le spectre mixe Y(i) pour 0 < i < 2N (avec Y(2N-1-i) =Y(i)) est ensuite 
transforme dans le domaine temporel par le module de TFRI 115 (figure 8). On 
ne retient que les N/2 = 128 premiers et les N/2 = 128 derniers echantillons de 
la trame de 2N = 5 12^_echantillons oroduite par le module 115, et on applique la 
permutation circulaire inverse de celle illustree par la figure 3 pour obtenir la 
trame synthetisee de N = 256 echantillons ponderes par la fenetre d' analyse f^. 

Les trames successivement obtenues de cette maniere sont finalement 
traitees par le module de synthese temporelle 116 qui forme le signal audio 
decode x . 

Le module de synthese temporelle 116 effectue une somme a 
recouvrement de trames modifiees par rapport a celles successivement 
evaluees en sortie du module 115. La modification peut etre vue en deux 
etapes illustrees respectivement par les figures 14 et 15. 

La premiere etape (figure 14) consiste a multiplier chaque trame 2' 
delivree par le module de TFRI 115 par une fenetre 1/f^ inverse de la fenetre 
tf analyse f^ employee par le module 1 du codeur. Les echantillons de la trame 
2" qui en resuitent sont done ponderes uniformement. 

La seconde etape (figure 15) consiste a multiplier les echantillons de 
cette trame 2" par une fenetre de synthese fg verifiant les proprietes suivantes : 

f3(N-L+i) + f3(i) = A pour 0 < i < L (19) 

fs(i) = A pour L ^ i < N-L (20) 

ou A designe une constante positive arbitraire, par exemple A = 1. La fenetre 
de synthese f3(i) croit progressivement de 0 a A pour i allant de 0 a L C'est par 
exemple une demi-sinusoTde surelevee : 

fsO) = j O-cos[(i + 1/2)7c/L]) pour 0 < i < L (21) 

Apres avoir repondere chaque trame 2" par la fenetre de synthese fg, 
le module 116 positionne les trames successives avec leurs decalages 
temporels de M = 160 echantillons et leurs recouvrements temporels de L = 96 
echantillons, puis il effectue la somme des trames ainsi positionnees dans le 
temps. Du fait des proprietes (19) et (20) de la fenetre de synthese fg. chaque 
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echantillon du signal audio decode x ainsi obtenu est affecte d'un poids global 
uniforme. egal a A. Ce polds global provient de la contribution d'une trame 
unique si I'echantillon a dans cette trame un rang i tel que L < i < N - L, et 
comports les contributions sommees de deux trames successives si 0 < i < L 

5 ou N - L < i < N. 

On peut ainsi effectuer la synthase temporelle de fagon simple meme 
si. comme dans le cas considers, le recouvrement L entre deux trames 
successives est plus petit que la moitie de la taille N de ces trames. 

Les deux etapes exposees ci-dessus pour la modification des trames 

10 de signal peuvent etre fusionnees en une seule etape. II suffit de. precalculer 
une fenetre composes fc(i) = fs{i)/fA('). de multiplier simplement les trdmes 
2* de N = 256 echantillons delivrees par le module 1 15 par la fenetre composes 
fc avant d'sffectuer la sommation a recouvrement. 

La figure 16 montre Failure de la fenetre composee f^ dans le cas ou la 

15 fenetre d' analyse f^ est une fsnstrs de Hamming et la fenetre de synthase fg a 

la forme donnee par Iss rslations (19) a (21). 

D'autrs formss ds la fsnstrs ds synthsse fg verifiant les relations (19) 

et (20) peuvent etre smployees. Dans la variante de la figure 17. c'est une 
fonction affine par morceaux definie par : 

20 f5(l) = A.i/L pourO<i<L (22) 

Afin d'ameliorer la qualite de codage du signal audio, le codeur de la 
figurs 1 peut augmenter la cadence de formation et danalyse des trames, afin 
de transmettre davantage de parametres de quantification au decodeur. Dans 
la structure de trams rsprssentee sur la figure 2, uns trams de N = 256 

25 echantillons (32 ms) est formee toutes les 20 ms. Ces trames de 256 
echantillons pourraient etre formees a une cadence superieure, par exemple 
de 10 ms, dsux trames successives ayant alors un decalage de M/2 = 80 
echantillons et un recouvrement de 176 echantillons. 

Dans ces conditions, on peut transmsttrs les jeux complets ds 

30 parametres de quantification IF, icxs, icxi, iEm pour ssulemsnt un sous- 
enssmble des trames, et transmettre pour les autres trames des parametres 
permettant d" effectuer une interpolation adequate au niveau du decodeur. Dans 
I'exemple envisage ci-dessus, le sous-ensemble pour lequel des jeux de 
parametres complets sont transmis peut etre constitue par les trames de rang 
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entier n. dont la periodicite est de M/F^ = 20 ms, et les trames pour lesquelles 

une interpolation est effectuee peuvent etre celles de rang demi-entier n + 1/2 
qui sont decalees de 1 0 ms par rapport aux trames du sous-ensemble. 

Dans la realisation illustree par la figure 18, les notations cx_q [n~1] et 
cx_q[n] designent des vecteurs cepstraux quantifies determines, pour deux 
trames successives de rang entier, par le module de quantification 18 et/ou par 
1p mndiHp dp quan tification 34. Ces vecteurs comprennent par exemple quatre 
coefficients cepstraux consecutifs chacun. lis pourraient egalement 
comprendre davantage de coefficients cepstraux. 

Un module 120 effectue une interpolation de ces deux vecteurs 
cepstraux cx_q[n-1] et cx_q[n], afin d'estimer une valeur intermediaire 
cxJ[n-1/2]. L interpolation effectuee par le module 120 peut etre une simple 
moyenne arithmetique des vecteurs cx_q[n-1] et cx_q[n]. En variante. le 
module 120 pourrait appliquer une formule tf interpolation plus sophistiquee. 
par exemple poiynomiale, en se fondant egalement sur les vecteurs cepstraux 
obtenus pour des trames anterieures a la trame n-1. D'autre part, si plus d'une 
trame interpolee est intercalee entre deux trames consecutives de rang entier, 
r interpolation tient compte de la position relative de cheque trame interpolee. 

A Taide des moyens precedemment decrits, le codeur calcule 
egalement les coefficients cepstraux cx[n-1/2] relatifs a la trame de rang demi- 
entier. Dans le cas de Tenveloppe superieure, ces coefficients cepstraux sont 
ceux fournis par le module de TFR1 13 apres post-liftrage 15 (par exemple avec 
les memes coefficients de post-liftrage que pour la trame precedente n-1) et 
normalisation 16. Dans le cas de Tenveloppe inferieure, les coefficients 
cepstraux cx[n-1/2] sont ceux delivres par le module de TFRI 33. 

Un soustracteur 121 forme la difference ecx[n-1/2] entre les 
coefficients cepstraux cx[n-1/2] calcules pour la trame de rang demi-entier et 
les coefficients cxJ[n-1/2] estimes par interpolation. Cette difference est 
fournie a un module de quantification 122 qui adresse des index de 
quantification icx[n~1/2] au multiplexeur de sortie 6 du codeur. Le module 122 
fonctionne par exemple par quantification vectorielle des erreurs d' interpolation 
ecx[n-1/2] successivement determinees pour les trames de rang demi-entier. 

Cette quantification de I'erreur d' interpolation peut etre effectuee par le 
codeur pour chacun des NCS + NCI coefficients cepstraux utilises par le 
decodeur, ou seulement pour certains d' entre eux, typiquement ceux d'ordres 



-27 - 



les plus petits. 

Les moyens correspondants du decodeur sont illustres par la figure 19. 
Le decodeur fonctionne essentiellement comme celui decrit en reference S la 
figure 8 pour determiner les trames de signal de rang entier. Un module 

5 d" interpolation 124 identique au module 120 du codeur estime les coefficients 
intermediaires cxJ[n-1/2] a partir des coefficients quantifies cx_q[n-1] et 
cx_q[n] fournis par le module 47 et/ou le module 48 a partir des index icxs, icxi 
extraits du flux O. Un module d'extraction de parametres 12b re^ojt nndex de 
quantification icx[n-1/2] depuis le demultiplexeur d'entree 45 du decodeur, et 

10 en deduit I'erreur d' interpolation quantifiee ecx_q[n-1/2] a partir du meme 
dictionnaire de quantification que celui utilise par le module 122 du codeur. Un 
additionneur 126 fait la somme des vecteurs cepstraux cxj[n-1/2l et 
ecx_q[n-1/2] afin de fournir les coefficients cepstraux cx[n-1/2] qui seront 
utilises par le decodeur (modules 51-57. 95. 96. 115 et/ou modules 85-87. 92, 

15 95, 96. 115) pour former la trame interpolee de rang n-1/2. 

Si certains seulement des coefficients cepstraux ont fait I'objet d'une 
quantification d'erreur d' interpolation, les autres sont determines par le 
decodeur par una interpolation simple, sans correction. 

Le decodeur peut egalement interpoler les autres parametres Fq, Emix 

20 utilises pour syntlnetiser les trames de signal. La frequence fondamentale Fq 
peut etre interpolee lineairement, soit dans le domaine temporel, soit (de 
preference) directement dans le domaine frequentiel. Pour I' interpolation 
eventuelle du vecteur de ponderation energetique Emix, il convient d'effectuer 
I' interpolation apres denormalisation et en tenant compte bien entendu des 

25 decalages temporels entre trames. 

II est a noter qu'il est particulierement avantageux. pour interpoler la 
representation des enveloppes spectrales, d'effectuer cette interpolation dans 
le domaine cepstral. Contrairement a une interpolation effectuee sur d' autres 
parametres, tels que les coefficients LSP (« Line Spectrum Pairs »). 

30 I' interpolation lineaire des coefficients cepstraux correspond a I'interpolation 
lineaire des amplitudes spectrales comprimees. 

Dans la variante representee sur la figure 20, le codeur utilise les 
vecteurs cepstraux cx_q[n], cx_q[n-1], .... cx_q[n-r] et cx_q[n-1/2] calcules 
pour les dernieres trames passees (r > 1 ) pour identifier un filtre interpolateur 

35 optimal qui, lorsqu'on lui soumet les vecteurs cepstraux quantifies cx_q[n-r], 



o o . . 

-28- 

■ •I cx_q[n] relatifs aux trames de rang entier, delivre un vecteur cepstral 
interpole cx_i[n-1/2] qui presente une distance minimale avec le vecteur 
cx[n-1/2] calcule pour la derniere trame de rang demi-entier. 

Dans I'exemple represents sur la figure 20, ce filtre interpolateur 128 
• 5 est present dans le codeur, et un soustracteur 129 retranche sa sortie 
cxJ[n-1/2] du vecteur cepstral calcule cx[n-1/2]. Un module de minimisation 

130 determine le jeu de parametres {P} du filtre interpolateur 128, pour lequel 

Terreur d' interpolation ecx[n-1/2] delivree par le soustracteur 129 presente une 
norme minimale. Ce jeu de parametres {P} est adresse a un module de 
10 quantification 131 qui foumit un index de quantification correspondant iP au 
multiplexeur de sortie 6 du codeur. 

En fonction du debit alloue dans le flux 4) aux index de quantification 
des parametres {P} definissant le filtre interpolateur optimal 128, on pourra 
adopter une quantification plus ou moins fine de ces parametres, ou une forme 
15 plus ou moins elaboree du filtre interpolateur. ou encore prevoir plusieurs filtres 
interpolateurs quantifies de maniere distincte pour differents vecteurs de 
coefficients cepstraux. 

Dans une realisation simple, le filtre interpolateur 128 est lineaire, avec 

r= 1 : 

20 cxJ[n-1/2] = p.cx_q[n-1 ] + (1-p).cx_q[n] (23) 

et le jeu de parametres {P} se limite au coefficient p compris entre 0 et 1. 

A partir des index iP de quantification des parametres {P} obtenus dans 
le flux binaire cp, le decodeur reconstruit le filtre interpolateur 128 (aux erreurs 
de quantification pres). et traite les vecteurs spectraux cx_q[n-r], .... cx_q[n] 

25 afin d'estimer les coefficients cepstraux cx[n-1/2] utilises pour synthetiser les 
trames de rang demi-entier. 

De fagon generale, le decodeur peut utiliser une methode 
d' interpolation simple (sans transmission de parametres de la part du codeur 
pour les trames de rang demi-entier). une methode rf interpolation avec prise 

30 en compte une erreur d' interpolation quantifiee (selon les figures 17 et 18), ou 
une methode d' interpolation avec un filtre interpolateur optimal (selon la figure 
19) pour evaluer les trames de rang demi-entier en plus des trames de rang 
entier evaluees directement comme explique en reference aux figures 8 a 13. 
Le module 116 de synthese temporelle peut alors combiner Tensemble de ces 

35 trames evaluees pour former le signal synthetise x de la maniere expliquee ci- 
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apres en reference aux figures 14, 21 et 22. 

Comme dans la methode de synthese temporelle precedemment 
decrite, le module 116 effectue une somme a recouvrement de trames 
modlfiees par rapport a celles successlvement evaluees en sortie du module 
5 115, et cette modification peut etre vue en deux etapes dont la premiere est 
identique a celle precedemment decrite en reference a la figure 14 (diviser les 

orhantiiinn.; H>:> la frame ?' oar la fenetre d' analyse fA)- 

La seconde etape (figure 21 ) consiste a multiplier les echantillons de la 

trame renormalisee 2" par une fenetre de synthese fs verifiant les proprietes 

10 suivantes : 

fs(i)=0 pourO<i<N/2-M/p et N/2 + M/p^i<N " (24) 

4(0 + fs(' + M/p) = A pour N/2 - M/p < i < N/2 (25) 
oil A designe une constante positive arbitraire. par exemple A = 1, et p est 
rentier tel que le decalage temporel entre les trames successives (calculees 
15 directement et interpolees) soit de M/p echantillons, soit p = 2 dans rexemple 
decrit. La fenetre de synthese fs(i) croit progressivement pour i allant de 
N/2 -M/p a N/2. C'est par exemple une sinusoTde surelevee sur I'intervalle 

t 

N/2 - M/p ^ i < N/2 + M/p. En particulier, la fenetre de synthese fs peut etre, 
sur cet intervalle, une fenetre de Hamming (comme represente sur la figure 21) 

20 ou une fenetre de Manning. 

La figure 21 montre les trames successives 2" repositionn^es dans le 
temps par le module 116. Les hachures indiquent les portions eliminees des 
trames (fenfetre de synthese a 0). On voit qu'en effectuant la somme a 
recouvrement des echantillons des trames successives, la propriete (25) 

25 assure une ponderation homogene des echantillons du signal synthetise. 

Comme dans la methode de synthese illustree par les figures 14 et 15, 
la procedure de ponderation des trames obtenues par transformee de Fourier 
inverse des spectres Y peut etre effectuee en une seule etape, avec une 
fenetre composee fc(i) = fs(')AA(') • La figure 22 montre la forme de la fenetre 

30 composee fc dans le cas ou les fenetres f^^ et fs sont de type Hamming. 

Comme la methode de synthese temporelle illustree par les figures 14 
a 17, celle illustree par les figures 14, 21 et 22 permet de prendre en compte 
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un recouvrement L entre deux trames d'analyse (pour lesquelles I'analyse est 
effectuee de fagon complete) plus petit que la moitie que la taille N de ces 
trames. De fagon generale. cette derniere methode est applicable lorsque les 
trames d' analyse success! ves presentent des decalages temporels mutuels M 
de plus de N/2 echantillons (meme eventuellement de plus de N echantillons si 
un tres bas debit est requis). T interpolation conduisant a un ensemble de 
trames dont les decalages temporels mutuels sont de moins d e N/2 
echantillons. 

Les trames interpolees peuvent faire I'objet tfune transmission reduite 
de parametres de codage. comme decrit precedemment, mais cela n'est pas 
obligatoire. Ce mode de realisation permet de conserver un intervalle M 
relativement grand entre deux trames d'analyse, et done de limiter le debit de 
transmission requis, tout en limitant les discontinuites susceptibles d'apparaitre 
en raison de la taille de cet intervalle par rapport aux echelles de temps 
typiques des variations des parametres du signal audio, notamment les 
coefficients cepstraux et la frequence fondamentale. 
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REVENDICATIONS 

1. Procede rfanalyse d'un signal audio (x) traite par trames 
successives de N echantillons. dans lequel on pondere les echantillons de 
chaque trame par une fenetre rfanalyse (fp) de type Hamming, Manning. 

5 Kaiser ou analogue, on calcule un spectre du signal audio en transformant 
chaque trame d'echantillons ponderes dans le domaine frequentiel, et on traite 
le spectre du signal audio pour delivrer des parametres (cx_sup. cxjnf, Emix) 
de synthese d'un signal derive du signal audio analyse, caracterise en ce que 
les trames successives pour lesquelles on delivre des jeux complets de 
10 parametres de synthese presentent des recouvrements mutuels de moins de 
N/2 echantillons. 

2. Procede selon la revendication 1, dans lequel on delivre pour 
certaines des trames des jeux incomplets de parametres de synthese incluant 
des donnees (icx[n-1/2]) representant une erreur (ecx[n-1/2]) d' interpolation 

15 d'au moins un des parametres de synthese. 

3. Procede selon la revendication 1, dans lequel on delivre pour 
certaines des trames des jeux incomplets de parametres de synthese incluant 
des donnees (iP) representant un filtre (128) d' interpolation rfau moins un des 
parametres de synthese. 

20 4. Precede selon Tune quelconque des revendications 1 a 3, dans 

lequel le traitement du spectre du signal audio (x) comporte une extraction de 
parametres de codage (cx_sup, cxJnf, Emix) en vue de la transmission et/ou 
du stockage du signal audio code. 

5. Procede selon Tune quelconque des revendications 1 a 3, dans 
25 lequel le traitement du spectre du signal audio (x) comporte un debruitage par 

soustraction spectrale. 

6. Dispositif de traitement audio, comprenant des moyens rfanalyse 
pour executer un procede selon Tune quelconque des revendications 1 a 5. 
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7. Procede de synthese d'un signal audio, dans lequel on obtient des 

estimations spectrales successives (Y) correspondant respectivement a des 



- 32 - 

trames de N echantillons du signal audio ponderes par une fenetre d' analyse 
{Ifi), les trames successives presentant des recouvrements mutuels de L 
echantillons, on evalue chaque trame du signal audio en transformant les 
estimations spectrales dans le domaine temporel, et on combine les trames 
5 evaluees pour former le signal synthetise (x), caracterise en ce qu'on modifie 
chaque trame evaluee en lui appliquant un traitement correspondant a une 

d iviai o n par l adite feiietrc d'onalyoc (f;^) et q unc multip l iootion par une fenctro 

de synthese (fg), et on forme le signal synthetise comme une somme a 
recouvrement des trames modifiees, et en ce que, le nombre L etant plus petit 
10 que N/2 et les echantillons d'une trame ayant des rangs i numerotes de 0 a 

N-1, la fenetre de synthese fs(i) verifie fs(N-L+i) + f3(i) = A pour 0 ^ i < L, et % 
est egale a A pour L < i < N-L, A etant une constante positive. 

8. Procede selon la revendication 7, dans lequel la fenetre de synthese 

fs(i) croit de 0 a A pour i allant de 0 a L. 

15 9. Procede selon la revendication 8, dans lequel la fenetre de synthese 

fs(i) pour 0 < i < L est une demi-sinusoide surelevee. 

10. Procede de synthese d'un signal audio, dans lequel on evalue un 

ensemble de trames recouvrantes successives de N echantillons du signal 
audio ponderes par une fenetre d'analyse (f^), en transformant dans le 

20 domaine temporel des estimations spectrales (Y) correspondant ^ 
respectivement auxdites trames. et on combine les trames evaluees pour 
former le signal synthetise (x), caracterise en ce que, pour un sous-ensemble 
des trames evaluees. les estimations spectrales sont obtenues en traitant des 
parametres de synthese (cx_sup_q. cxjnf_q, Emix) respectivement associes 

25 aux trames dudit sous-ensemble tandis que, pour les trames ne faisant pas 
partie du sous-ensemble, les estimations spectrales sont obtenues avec une 
interpolation d'une partie au moins des parametres de synthese, en ce que les 
trames successives dudit sous-ensemble presentent des decalages temporels 
mutuels de M echantillons, le nombre M etant plus grand que N/2, tandis que 

30 les trames successives dudit ensemble presentent des decalages temporels 
mutuels de M/p echantillons, p etant un entier plus grand que 1, en ce qu'on 
modifie chaque trame evaluee en lui appliquant un traitement correspondant a 
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une division par ladite fenetre d'analyse (f^^^) et a une multiplication par une 

fenetre de synthese (fs), et on forme le signal synthetise comme une somme a 
recouvrement des trames modifiees. et en ce que, les echantillons d'une trame 
ayant des rangs i numerates de 0 a N-1, la fenetre de synthese fs(i) a un 
5 support limite aux rangs 1 allant de N/2 - M/p a N/2 + M/p et verifie 
fo(') fo(i + M/p) = A pniir N/? - Mlp <; i <; N/?i A Ptant imp rnnstFintp pnsitivp 

11. Precede selon la revendication 10, dans lequel la fenetre de 
synthese fs(i) croit pour i allant de N/2 - M/p a N/2. 

12. Procede selon la revendication 11, dans lequel la fenetre de 
synthese fs(i) pour N/2 - M/p < i < N/2 + M/p est une sinusoide surelevee. 

13. Procede selon Tune quelconque des revendications 10 a 12, dans 
lequel des donnees (icx_q[n-1/2]) representant une erreur d interpolation 
(ecx_q[n-1/2]) sont associees aux trames ne faisant pas partie dudit sous- 
ensemble, et sont utilisees pour corriger au moins un des parametres de 

1 5 synthese interpoles (cxj[n-1 /2]), 

14. Procede selon Tune quelconque des revendications 10 a 12, dans 
lequel des donnees (IP) representant un filtre interpolateur (128) sont 
associees aux trames ne faisant pas partie dudit sous-ensemble, et sont 
utilisees pour interpoler au moins un des parametres de synthese. 

20 15. Precede selon Tune quelconque des revendications 10 a 14, dans 

lequel les parametres de synthese comprennent des coefficients cepstraux 
(cx[n]) soumis a T interpolation. 

16. Dispositif de traitement audio, comprenant des moyens de synthese 

pour executer un procede selon Tune quelconque des revendications 7 a 15. 
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